深度神经网络(DNNS)在现代应用中被大量使用,并将能量构成设备投入了测试。为了绕过高能消耗问题,已在DNN加速器中采用了近似计算,以平衡准确的能量降低权衡。但是,近似诱导的精度损失可能很高,并且会大大降低DNN的性能。因此,需要一种细颗粒机制,该机制将特定的DNN操作分配给近似值以保持可接受的DNN精度,同时还可以达到低能消耗。在本文中,我们提出了一个自动化框架,用于重量到附属映射,以实现近似DNN加速器的正式属性探索。在MAC单位级别上,我们的实验评估在能源收益方面超过了$ \ times2 $的能源效率映射,同时还支持对引入近似值的更细粒度控制。
translated by 谷歌翻译
参加联合学习(FL)的设备通常具有异质通信,计算和内存资源。但是,在同步FL中,所有设备都需要按照服务器规定的相同截止日期来完成培训。我们的结果表明,在受约束的设备上训练较小的神经网络(NN)子集,即按照最新状态提出的删除神经元/过滤器,这是效率低下的,可以防止这些设备对模型做出有效的贡献。这会导致不公平的w.r.t受限设备的可实现精确度,尤其是在跨设备的类标签偏斜的情况下。我们提出了一种新型的FL技术CocoFl,该技术在所有设备上都保持了完整的NN结构。为了适应设备的异质资源,CocoFl冻结并量化了选定的层,减少通信,计算和内存需求,而其他层仍被完全精确地训练,使得能够达到高精度。因此,CoCOFL有效地利用了设备上的可用资源,并允许受限的设备对FL系统做出重大贡献,从而提高了参与者的公平性(准确性均等),并显着提高了模型的最终准确性。
translated by 谷歌翻译
我们研究了具有异构,有限的和时变的计算资源可用性的设备上神经网络(NNS)的分布式训练问题。我们提出了一种自适应,资源感知的设备上学习机制,诈骗性,其能够以分布式方式完全和高效地利用设备上的可用资源,增加收敛速度。这是通过辍学机制实现的,该机制通过随机丢弃模型的卷积层的滤波器来动态调整训练NN的计算复杂性。我们的主要贡献是引入设计空间探索(DSE)技术,其在训练的资源需求和收敛速度上找到了Paripo-Optimal的每层丢弃向量。应用此技术,每个设备都能够动态地选择丢弃载体,符合其可用资源而不需要服务器的任何帮助。我们在联合学习(FL)系统中实施我们的解决方案,计算资源的可用性在设备和随着时间的推移之间变化,并且通过广泛的评估显示我们能够在不损害的情况下显着增加艺术状态的收敛速度最终准确性。
translated by 谷歌翻译
We consider the straggler problem in decentralized learning over a logical ring while preserving user data privacy. Especially, we extend the recently proposed framework of differential privacy (DP) amplification by decentralization by Cyffers and Bellet to include overall training latency--comprising both computation and communication latency. Analytical results on both the convergence speed and the DP level are derived for both a skipping scheme (which ignores the stragglers after a timeout) and a baseline scheme that waits for each node to finish before the training continues. A trade-off between overall training latency, accuracy, and privacy, parameterized by the timeout of the skipping scheme, is identified and empirically validated for logistic regression on a real-world dataset.
translated by 谷歌翻译
This paper presents the OPUS ecosystem with a focus on the development of open machine translation models and tools, and their integration into end-user applications, development platforms and professional workflows. We discuss our on-going mission of increasing language coverage and translation quality, and also describe on-going work on the development of modular translation models and speed-optimized compact solutions for real-time translation on regular desktops and small devices.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
在同时定位和映射(SLAM)中,环路闭合检测(LCD)对于在识别先前访问的地方时最小化漂移至关重要。视觉袋(VBOW)一直是许多最先进的大满贯系统的LCD算法。它使用一组视觉功能来提供健壮的位置识别,但无法感知特征点之间的语义或空间关系。先前的工作主要集中在解决这些问题上,通过将VBOW与现场对象的语义和空间信息相结合。但是,他们无法利用局部视觉特征的空间信息,并且缺乏统一语义对象和视觉特征的结构,因此限制了两个组件之间的共生。本文提出了SymbiolCD2,该symbiolcd2创建了一个统一的图形结构,以在共生的方式集成语义对象和视觉特征。我们的新型基于图的LCD系统通过应用具有时间限制的Weisfeiler-Lehman图内核来利用统一的图结构,以稳健地预测循环闭合候选者。对所提出的系统的评估表明,具有结合语义对象和视觉特征的统一图结构提高了LCD预测精度,这说明了所提出的图形结构在这两个互补组件之间提供了强烈的共生。它还优于其他机器学习算法 - 例如SVM,决策树,随机森林,神经网络和基于GNN的图形匹配网络。此外,它在比最先进的SLAM系统的早期检测循环闭合候选方面表现出良好的性能,这表明统一图结构的扩展语义和空间意识会显着影响LCD的性能。
translated by 谷歌翻译
在本文中,我们建议采用MDE范式来开发机器学习(ML)的软件系统,重点关注物联网(IoT)域。我们说明了如何将两种最先进的开源建模工具,即蒙蒂安娜和ML-Quadrat用于此目的,如案例研究所证明的那样。案例研究说明了使用ML使用MNIST参考数据集对手写数字的自动图像识别的ML,特别是深人造神经网络(ANN),并将机器学习组件集成到物联网系统中。随后,我们对两个框架进行了功能比较,设置了一个分析基础,以包括广泛的设计考虑因素,例如问题域,ML集成到较大系统中的方法以及支持的ML方法以及主题最近对ML社区的强烈兴趣,例如Automl和MLOP。因此,本文的重点是阐明ML域中MDE方法的潜力。这支持ML工程师开发(ML/软件)模型而不是实施代码,并通过启用ML功能作为IoT或IoT的组件的现成集成来实现设计的可重复性和模块化。网络物理系统。
translated by 谷歌翻译
变异下限(又称Elbo或自由能)是许多学习算法的核心目标,包括用于深度无监督学习的算法。学习算法会更改模型参数,使变量下限增加,直到参数接近学习动力学的固定点。在这种纯粹的理论贡献中,我们表明(对于一类非常大的生成模型),变异下限在所有固定的学习点等于等于熵的总和。对于具有一组潜伏期和一组观察到的变量的模型,总和由三个熵组成:(a)变异分布的(平均)熵,(b)模型先前分布的负熵,以及(c) (预期)可观察到的分布的负熵。所获得的结果适用于现实条件,包括:数据点的有限数量,在任何固定点(包括鞍点)以及(行为良好的)变异分布的任何家族。我们显示的生成模型类别的熵和均包含许多(也是大多数)标准生成模型(包括深模型)。作为具体示例,我们讨论了概率PCA和Sigmoid信念网络。我们用来显示熵和表现出平等的先决条件相对温和。具体而言,给定生成模型的分布必须是指数族的(具有恒定的基础度量),并且模型必须满足参数化标准(通常是满足的)。在固定点(在规定的条件下)证明ELBO到熵和熵和的平等是这项工作的主要贡献。
translated by 谷歌翻译
可解释的AI(XAI)的目的是设计方法,以提供有关黑盒模型(例如深神经网络)的推理过程的见解,以便向人类解释它们。社会科学研究指出,这种解释应该是对话的,类似于人类对人类的解释。在这项工作中,我们使用包含自然语言理解和发电组成部分的代理的标准设计来展示如何将XAI纳入对话代理。我们以XAI问题库为基础,我们通过质量控制的释义扩展,以了解用户的信息需求。我们进一步系统地调查了文献,以提供适当的解释方法,这些方法提供了以回答这些问题的信息,并提供了全面的建议列表。我们的工作是使用解释代理进行有关机器学习模型的真正自然对话的第一步。 XAI问题的全面列表和相应的解释方法可能会支持其他研究人员提供必要的信息以满足用户的需求。
translated by 谷歌翻译